クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年1月号
データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。
今回は、re:Invent2022が始まった11/28から12/31までのアップデートを紹介します。今年のre:Invent2022 で発表された新サービス・アップデート関連のレポートや検証ブログについて網羅していますので、re:Invent2022の総復習、新サービスの予習にお役立てください。
新サービス
Amazon Data Zone(Coming Soon)
組織内に存在するデータを共有・検索・発見するデータカタログサービスです。Amazon Redshift、Amazon Athena、Amazon QuickSightだけでなく、SnowflakeやTableauなどといったサードパーティ製サービスにもAPIを通じてインテグレーションできます。
AWS Clean Rooms(プレビュー)
数分で安全に顧客データを扱うためのデータクリーンルームを作成し、AWSにアクセスできる他の企業のメンバーとコラボレーションして、顧客データの分析を行うことができます。AWS Clean Roomsは、クエリの制御、出力制限、ロギングなど、プライバシー強化に関する制御を幅広くサポートしており、企業はクリーンルームのユーザーが実行するクエリーにかける制限をカスタマイズすることができます。
Amazon Redshift / Redshift Serverless
新機能・アップデート
2022/11/28 Amazon Redshift が SQL 機能を強化し、データウェアハウスの移行を簡素化および高速化 (プレビュー版)
新しい SQL の機能 (MERGE、ROLLUP、CUBE、GROUPING SETS) のサポートしました。また、JSON および PARQUET ソースファイルからネストされたデータを取り込むときに、より大きな半構造化データサイズ (最大 16 MB) をサポートするようになりました。
以前から要望が多かったMERGEを用いることで、ターゲットテーブルから条件付き挿入、更新、削除を簡単に行えるようになります。
2022/11/28 Amazon Redshift が Informatica Data Loader ツールと統合したことで、データアップロードがコスト不要でさらに速く
Informatica Data Loader for Amazon Redshift がリリースされました。
2022/11/29 AWS が Amazon Aurora と Amazon Redshift のゼロ ETL 統合をリリース
Amazon Redshiftは、Amazon Auroraとのゼロ ETL 統合に対応しました。Aurora に書き込まれたトランザクションデータは、数秒以内に Amazon Redshift で利用できます。従来必要であった、データパイプラインを構築して、抽出、変換、ロード (ETL) 処理する必要がありません。
2022/11/29 AWS が Amazon Redshift の Apache Spark との統合を発表
Amazon EMR、AWS Glue、Amazon SageMaker などの AWS の分析および機械学習 (ML) サービスを使用している場合、アプリケーションのパフォーマンスやデータのトランザクションの整合性を損なうことなく、Amazon Redshift データウェアハウスでの読み書きを行う Apache Spark アプリケーションを構築できるようになりました。
2022/11/29 Amazon EMR での Amazon Redshift の Apache Spark との統合を発表
AWS が Amazon Redshift の Apache Spark との統合を発表の中のEMRについて記載です。
2022/11/29 Amazon Redshift が動的データマスキングのサポートを開始 (プレビュー)
動的データマスキング (DDM) に対応しました。動的データマスキングは、 SQL ベースのマスキングポリシーによって、データへのアクセスを制御します。このポリシーは、クエリ実行時に Redshift が機密データをどのようにユーザーに返すかを定義します。データに関するすべての情報を完全に隠したり、部分的な実際の値をワイルドカード文字に置き換えたりできます。あるいは、SQL 式、Python、Lambda のユーザー定義関数を用いて、データのマスキング方法を独自に定義することも可能です。
2022/11/30 Amazon Redshift で RA3 クラスターの マルチ AZ のサポートを開始 (プレビュー)
Redshift のマルチ AZ 配置を使用すると、AZ の障害発生時にユーザーが介入することなく障害から自動復旧できます。Redshift のマルチ AZ 配置は、1 つのエンドポイントを通じて 1 つのデータウェアハウスとしてアクセスできます。また、ワークロードの処理が複数の AZ へ自動的に分散されるため、データウェアハウスのパフォーマンスを最大限に高めることができます。
APIの変更点
2022/12/02 Redshift Serverless - 3 new 9 updated methods
Amazon Redshift Serverless のテーブル レベルの復元操作を追加します。Amazon Redshift Serverless エンドポイントのマルチポート サポートを追加します。Amazon Redshift Serverless のスナップショットと復旧ポイントにタグ付けサポートを追加します。
2022/12/14 Redshift Data API Service - 2 updated methods
このリリースでは、新しい --client-token フィールドが ExecuteStatement および BatchExecuteStatement オペレーションに追加されています。お客様は、追加のクライアント トークン パラメーターを使用してクエリを実行し、べき等性を確保できるようになりました。
Amazon Athena
新機能・アップデート
2022/11/30 Amazon Athena が Apache Spark のサポートを開始
Amazon Athena は、Apache Spark をサポートするようになりました。Athena ノートブック環境により、インタラクティブな Apache PySpark アプリケーションを構築できます。Athena では、最適化された Spark ランタイムを使ってインタラクティブな Spark アプリケーションが 1 秒未満で起動し、高速に実行されます。
APIの変更点
2022/11/30 Amazon Athena - 23 new 3 updated methods
このリリースには、Amazon Athena で Apache Spark を使用するためのサポートが含まれています。
AWS Glue
新機能・アップデート
2022/11/28 AWS Glue にカスタムビジュアル変換が登場
チーム間でビジネス固有の ETL ロジックを定義、再利用、共有できる、カスタムビジュアル変換機能をリリースしました。開発者がカスタムビジュアル変換機能を作成、変換を定義したファイルを AWS アカウントに保存することで、アナリストはビジュアルジョブエディタでノーコード、ローコードでETLを作成できるようになります。
2022/11/28 AWS Glue for Ray のリリース (プレビュー)
AWS Glue for Ray は、AWS Glue 上の新しいエンジンオプションです。Ray は、Python ワークロードがスケールしやすくなる、新しくポピュラーなオープンソースのコンピューティングフレームワークです。
2022/11/28 Introducing AWS Glue 4.0
AWS Glue の新バージョンである AWS Glue バージョン 4.0 をリリースしました。AWS Glue 4.0 は Spark エンジンを Apache Spark 3.3.0 と Python 3.10 にアップグレードします。今回の新しい機能の殆どが、AWS Glue 4.0が前提となりますので、今後はAWS Glue 4.0を利用していただくことになります。
AWS Glue はサーバーレスでスケーラブルなデータ統合サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。
- 組み込みの Pandas API のサポート
- Apache Hudi、Apache Iceberg および Delta Lake フォーマットのサポート
- RDS、MySQL、SQLServer のようなネイティブの AWS Glue データベースソースのコネクタをアップグレード
- AWS Glue 4.0 では新しい Cloud Shuffle Storage Plugin for Apache Spark のネイティブサポート
- クエリの実行中に動的に最適化する Adaptive Query Execution を有効
2022/11/28 AWS Glue for Apache Spark Native のデータレイクフレームワーク (Apache Hudi、Apache Iceberg、Delta Lake) 向けサポート
AWS Glue for Apache Spark は3 つのオープンソースデータレイクストレージフレームワーク、Apache Hudi、Apache Iceberg、Linux Foundation Delta Lake をサポートするようになりました。これらのオープンソースデータレイクフレームワークにより、Amazon S3 に構築したデータレイクでの増分データの処理が簡単になります。これらのフレームワークは、タイムトラベルクエリ、ACID (不可分性、整合性、分離性、耐久性) トランザクション、ストリーミングの取り込み、変更データキャプチャ (CDC)、アップサート、削除などの機能を有効にします。
2022/11/30 AWS Glue から AWS Glue Data Quality (プレビュー版) を発表
データレイクとデータパイプラインの品質を自動的に測定しモニタリングする新機能、AWS Glue Data Quality のプレビュー版を発表しました。
2022/11/30 AWS Glue デリバリーのご紹介
このサービスでは、深い専門知識やデータ統合、データパイプライン、データカタログのユースケースで AWS Glue を提供する確かな実績を備えた AWS パートナーを認定します。
APIの変更点
2022/11/29 AWS Glue - 5 updated methods
このリリースでは、AWS Glue CLI/SDK を介してカスタム ビジュアル トランスフォーム (Dynamic を作成できます。
2022/11/30 AWS Glue - 16 new 8 updated api methods
このリリースでは、AWS Glue Data Quality のサポートが追加されました。これは、データの品質を評価およびモニタリングするのに役立ち、データ品質ルールセット、実行、および評価を作成、削除、または更新するための API が含まれています。
2022/12/15 AWS Glue - 5 updated api methods
このリリースでは、ネイティブ DeltaLake テーブルを使用した AWS Glue Crawler のサポートが追加され、クローラーが Delta Lake 形式のテーブルを分類し、クエリ エンジンがクエリを実行できるようにカタログ化できるようになりました。
AWS Lake Formation
新機能・アップデート
2022/11/30 Amazon Redshift データ共有で AWS Lake Formation を使用した一元的なアクセスコントロールが可能に (プレビュー)
Amazon Redshift データ共有は、組織全体で共有されるデータに対する権限を AWS Lake Formation で一元管理できるようになり、Amazon Redshift データ共有のガバナンスを簡単に行えるようになりました。
Amazon QuickSight
新機能・アップデート
2022/11/28 Amazon QuickSight 向け拡張 API 機能の一般提供を開始
Amazon QuickSightで拡張 API 機能が利用できるようになりました。新しい拡張 API を使用すると、ソフトウェアコードなどの QuickSight のアセットを操作できます。また、コードレビュー、監査、開発環境と本番環境全体でのプロモーションなどの DevOps プロセスと統合できます。
2022/11/28 Amazon QuickSight から Paginated Reports がリリース
Paginated Reports では、高度に書式設定された複数のページにわたるレポートの作成、スケジュール設定、共有、およびデータエクスポートのスケジュール設定を大規模に行うことができます。
2022/11/29 Amazon QuickSight Q が新たな質問タイプをサポート開始
Amazon QuickSight Qは、新たに 2 つの質問タイプ「予測 (forecast)」と「なぜ (why)」をサポートし、自然言語を利用して複雑な分析タスクを簡素化およびスケーリングする機能が提供されました。
2022/11/29 Amazon QuickSight Q で自動的なデータプレパレーションのサポートを開始
Amazon QuickSight Q は、人工知能 (AI) で強化された自動データプレパレーションがされ、自然言語の質問に対する既存のダッシュボードを迅速かつ簡単に拡張できるようになりました。
2022/12/08 Amazon QuickSight は SPICE を使用して 10 億行のデータセットをサポートします
Amazon QuickSightは、Enterprise Edition でさらに大きな SPICE データセットをサポートするようになりました。
- Enterprise Edition:最大 5 億行(または500 GB) => 最大 10 億行 (または 1 TB)
- Standard Edition:最大 2,500 万行 (または 25 GB)
APIの変更点
2022/11/29 Amazon QuickSight - 3 new 12 updated api methods
このリリースでは、新しい Describe API が追加され、Create API と Update API が更新されて、ダッシュボード、分析、およびテンプレートのデータ モデルがサポートされます。
Amazon EMR / EMR Serverless
APIの変更点
2022/12/29 Amazon EMR - 1 new methods
GetClusterSessionCredentials API を追加して、Amazon SageMaker Studio がランタイム ロールと Apache Spark、Apache Hive、および Presto クエリに対する AWS Lake Formation ベースのアクセス コントロールを使用して EC2 クラスター上の EMR に接続できるようにしました。
Amazon OpenSearch / OpenSearch Serverless
新機能・アップデート
2022/11/29 Amazon OpenSearch Serverless (プレビュー版) の発表
Amazon OpenSearch Serviceでは、新しいサーバーレスオプションである Amazon OpenSearch Serverless の提供を開始しました。このオプションを使うと、OpenSearch クラスターを構成、管理、拡張することなく、ペタバイト規模の検索と分析のワークロードを実行するプロセスを簡素化できます。
APIの変更点
2022/11/29 OpenSearch Service Serverless - 31 new methods Amazon OpenSearch Serverless 用の SDK を発行する
Amazon Kinesis
新機能・アップデート
2022/11/29 Amazon Kinesis Data Firehose で Amazon OpenSearch Serverless に対するデータストリーム配信をサポート
Amazon Kinesis Data Firehoseから Amazon OpenSearch Serverless にストリーミングデータを配信できるようになりました。
APIの変更点
2022/11/29 Amazon Kinesis Firehose - 3 updated methods
Kinesis Data Firehose の配信先として、Amazon OpenSearch Service のサーバーレス サービスのサポートを許可します。
データ分析相談会 /データ分析環境構築支援
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
- 企業内に点在するデータを1箇所にまとめて分析したい
- クラウド上で分析基盤を導入したい・・・
- データを活用したいが、具体的に何から始めたらいいかわからない
データ分析の相談会、オーダーメイドの分析基盤構築の開発もおこなっています。お客様の課題にあわせた最適な構成をご提案いたします。お気軽にご相談ください。
データ分析相談会のお申込みはこちら
最後に
2022年12月に発表された、AWSのアナリティクス関連のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
今月は、re:Invent2022の開催月ということもあり、大きなアップデートが多くありました。今年は新サービスよりも、既存のサービスを組み合わせた新サービスやシナジーをもたらす新機能が多く登場しました。中でも新サービス Amazon Data Zone(Coming Soon)は気になる存在です。
クラスメソッド データアナリティクス通信(AWSデータ分析編) - 2023年1月号は以上です。なお、AWSの公式AWS Big Data Blogにアナリティクス関連のまとめブログもありますので合わせてご覧ください。